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摘 要 : 高效 地 访问 倒 排 索引 是 搜索 引擎 快速 响应 用 户 查 询 的 关键 ， 而 压缩 倒 排列 表 是 提高 搜索 引擎 性 能 的 最 重要 的 
手段 之 一 。 针 对 自 适 应 分 段 压缩 ASCS 算法 进行 了 研究 ， 对 于 ASCS 算法 中 采用 的 均匀 分 段 方式 并 非 最 优 分 段 问题 ， 
提出 以 人 工蜂 群 算法 优化 ASCS 算法 中 的 分 段 方式 ; 对 于 ASCS 算法 考虑 序列 占用 空间 的 影响 因素 过 于 单一 问题 ， 提 
出 多 因素 下 的 改进 算法 ; 对 于 分 布 不 均 的 长 序列 在 ASCS 算法 下 压缩 府 不 理想 问题 ， 提 出 先 排序 后 差分 编码 操作 后 再 
以 ASCS 算法 压缩 。 通 过 对 比 实 验证 明 优化 改进 后 的 算法 可 以 较 显 著 的 压缩 倒 排 索引 。 
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Method of inverted index compression 


Bai Fujuna, Gao Jianlinga, Li Wanrongb, He Siyuna, Xiao Shaowu’ 
(a. College of Big Dat & Information Engineering, b. Archives Guizhou University, Guiyang 550025, China) 


Abstract: Efficient access to the inverted index 1s a key aspect for a search engine to achieve fast response times to users’ 
queries. While compression of its posting lists is one of the most important methods to improve the performance of search engine. 
Segmentation method optimized by ABC algorithm in ASCS algorithm was proposed for the problem of ASCS algorithm that it 
adopts uniform segmentation instead of optimal segmentation; The ASCS algorithm only considers an influencing factor and 
ignores the influence of other factors ; The ratio of compressing long sequence of uneven distribution is unsatisfactory with 
ASCS algorithm, it was adopted that process integer sequence with sorting and differential encoding before ASCS algorithm. 
Simulation experiments show that the improved algorithm has significantly increased compression ratio of inverted index file 
comparing with ASCS algorithm. 
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0 引言 样 ， 压 缩 倒 排 列表 就 是 压缩 一 系列 由 DocID、frequencies、 
ani tom 

随 着 互联 网 特别 是 移动 互联 网 的 迅 独 发 展 ， 导 致 网 络 信息 。 的 存储 空间 取决 于 文档 集中 最 大 文档 编号 的 大 小 ， 这 显然 会 浪 

量 越 来 越 庞大 ， 这 给 信息 的 存储 和 检索 带 来 了 很 大 的 挑战 。 如 ”” 费 巨大 的 空间 资源 。 

何在 海量 的 信息 集合 中 高 效 的 定位 、 查 找 所 需 的 目标 信息 是 迫 表 1 倒 排 索引 结构 

切 需要 解决 的 问题 。 Term Posting list<DocID,freq,(pos1,...)> 
倒 排 索引 中 是 现代 搜索 引擎 的 索引 模型 ， 对 于 每 个 索引 词 1 <d1,2,(p2,p7)>, <d2,1,(p6)>,*… 

汇 (term) 都 对 应 着 一 个 倒 排 列表 (posting list)， 倒 排列 表 包 含 了 Fe <d2,1,(p4)>,…… 

词汇 所 在 的 文档 ID(DocID)， 以 及 在 文档 中 的 频率 (frequencies) term3 ”<dl1,1,(p1)>,<d2,2,(p3,p9)>,<d4,2,(p3,p12)> 

和 位 置 (positions) 等 信息 。 倒 排 索引 文件 就 是 一 系列 term 和 


posting list 的 集合 ， 其 结构 如 表 1 所 示 。 压 缩 倒 排 索引 即 是 月 
缩 term 和 posting list。 为 了 更 好 的 存储 和 压缩 倒 排 列表 ， 通 常 倒 排 索引 压缩 技术 目前 应 用 很 广泛 ， 也 有 很 多 算法 或 者 编 
是 将 各 个 词汇 的 DocID 、frequencis 和 positions 分 开 存储 。 这 码 在 搜索 引擎 中 被 采用 。 一 种 普遍 的 做 法 是 通过 存储 倒 排列 表 


过 
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中 DocID 和 positions 的 差分 值 阅 〈d-gaps) 而 不 是 存储 他 们 的 
实际 值 来 减 小 倒 排 列表 占用 的 存储 空间 。 对 于 目前 的 压缩 算法 
而 言 可 以 通过 编码 性 质 B 将 它们 分 为 按 位 压缩 (bitwise)、 字 节 对 
齐 压 缩 (byte aligned) 、 字 对 齐 压缩 (word aligned) 、 自 压缩 


ER 


GhinaXiy 合 站 期 和 
白 福 均 ， 等 : 二 种 个 WE | 压 于 绢 号 法 


在 存在 较 大 异常 值 M 时 使 得 b 值 过 大 而 使 压缩 率 变 差 而 提出 
来 的 一 种 改进 编码 算法 , PFOR 编码 为 大 多 数 整 数 (例如 90%) 
选择 参数 5»， 而 不 能 用 b 位 表示 的 大 整数 被 称 为 异常 值 〈 值 大 
于 2 )， 因 此 PFOR 编码 使 用 FOR 正确 编码 正常 值 ， 对 于 异常 


(oblivious)、 自 适应 列表 压缩 dist-adaptive)。 对 于 自 压缩 ， 它 仅 


值 所 占 的 2 位 用 来 存储 下 一 个 异常 值 的 位 置 ， 真 实 的 异常 值 不 


通过 自身 的 值 来 进行 编码 ， 只 考虑 自身 信息 而 忽略 了 相 邻 信息 
和 全 局 信息 。 

Unary 四 是 将 一 个 正 整 数 n 编码 为 (n 一 DD) 个 位 1 和 1 个 位 0 

(例如 :5 被 编码 为 11110), 这 种 编码 方式 适合 小 整数 的 编码 ， 

对 于 大 整数 编码 反而 会 占用 更 多 的 存储 空间 ;Elias Gammab 编 
码 会 将 整数 编码 成 两 个 部 分 ， 长度 部 分 和 数据 部 分 。 长 度 部 
分 为 n 的 三 进 制 长 度 的 Unary 编码 ， 而 数据 部 分 为 n 的 二 进 和 
表示 法 去 掉 最 高 位 ， 即 n=U(B()D)+B(n) ， 比 如 6 被 编码 为 
110|10。 同 样 地 ，Gamma 编码 不 适合 编码 大 整数 ;Elias Deltals] 
编码 与 Gamma 一 样 将 整数 n 编码 成 长 度 部 分 和 数据 部 分 ， 只 
不 过 长 度 部 分 表示 成 n 的 二 进 制 长 度 的 Elias Gamma 编码 ， 数 
据 部 分 和 Elias Gamma 编码 的 数据 部 分 完全 一 致 ， 都 为 n 的 二 


Es 


压缩 地 存储 在 FOR 编码 输出 之 后 ; 当 2 位 无 法 表示 异常 值 的 
间隔 时 将 增加 5 的 值 ， 从 而 使 得 压缩 率 下 降 ， 为 了 改进 和 增强 
PFOR 编码 , NewPFD03 编 码 、OptPFD0S 编 码 和 FastPFORI9] 被 
陆续 的 提出 使 得 PFOR 编码 日 趋 完善 。 

为 了 提高 倒 排 索引 的 压缩 率 ， 本 文 对 自 适应 分 段 压缩 
ASCS 算法 RQ 进行 深入 研究 ,ASCS 算法 存在 以 下 缺陷 :a)ASCS 
算法 中 采用 的 均匀 分 段 方式 并 非 最 优 分 段 导致 压缩 率 不 佳 ; 
b)ASCS 算法 考虑 影响 序列 占用 空间 的 因素 过 于 单一 而 无 法 有 
效 压缩 数据 ; c) 分 布 不 均 的 长 整数 序列 在 ASCS 算法 下 压缩 率 
不 理想 。 针 对 ASCS 算法 存在 以 上 不 足 ， 提 出 以 下 改进 方法 : 
以 人 工蜂 群 算法 优化 ASCS 算法 中 的 分 段 方 式 ， 提 出 一 种 在 多 
因素 下 的 综合 改进 方法 ; 对 整数 序列 进行 排序 差分 预 处 理 后 再 


| 


进 制 表示 法 去 掉 最 高 位 即 4= BG(B()) +B(n) ， 例 如 : 6 被 纺 
码 成 1101|10, 此 编码 对 大 整数 的 编码 效率 较 高 ; Golomb["] 编 码 
是 将 整数 n 被 除数 d 整除 得 到 商 9 和 余数 >， 对 于 压缩 序列 来 
说 , 通常 取 除数 4d =0.69*avg , avg 是 序列 的 平均 数 , 整数 的 
Golomb 编码 为 n= Unary(q)+ B(r) ;Rice 编码 是 Golomb 编码 
的 升级 版 ， 这 里 将 除数 g 指定 为 2 的 指数 款 ， 这 样 做 的 好 处 是 
使 得 除法 运算 转换 成 高 效 的 移 位 运算 , 编码 速率 更 快 ; Extended 
Golomb 忆 编码 是 将 整数 刀 反 复 被 除数 4 整除 大 次， 直到 商 q=0 
为 止 , 即 n=Unary(k)+Code(ni,n 1， ,ni) 。 后 续 又 陆续 出 现 了 
Fast Extended Golombl0 编 码 (EEGC)、Re-Orded FEGC00 编 码 
(RFEGC)、Block RFEGC00 编 码 (BRFEGC) 、Re-Ordered Fast 
Modified Extended Golomb02] 编 码 (RFMEGC) 、 
Encoding RFEGC02 编 码 (RLETFEGC)、 动 态 规划 FREGC02 编 
码 (DPRFEGC) 等 Extended Golomb 编码 EGC) 的 改进 编码 ; 

PackedBinary03 编 码 是 一 种 定位 编码 方式 ， 它 每 次 编码 一 个 序 
列 的 整数 ， 首 先 选 出 序列 中 的 最 大 整数 的 有 效 位 宽 w， 然 后 将 
序列 中 的 所 有 整数 都 用 w 位 进行 编码 ，Variable Byte04 是 一 种 
字 节 对 齐 编码 方式 ， 它 用 每 个 字 节 的 低 7 位 表示 整数 二进制 
部 分 ， 最 高 位 用 0 或 者 1 表示 整数 n 是 否 被 编码 完成 ，1 表示 
编码 完成 ，0 表示 编码 未 完成 ， 例 如 201 被 编码 为 10000001 
01001001; Simple05 家 族 编码 用 于 压缩 整数 序列 ， 编 码 的 思想 
是 在 一 个 字 里 尽 可 能 地 压缩 多 个 整数 ， 例 如 可 以 在 1 个 字 的 前 
4 位 存放 描述 后 28 位 中 各 个 整数 所 占 的 位 数 ， 对 于 
{509,510,511} 可 编码 为 0100|111111101|111111110|111111111; 

Frame ofreference06 (FOR) 编 码 一 次 编码 若干 个 整数 (例如 128 
个 )， 计 算 这 128 个 整数 的 最 大 值 M 与 最 小 值 m 的 差 值 ， 然 后 
以 二 进 制 形式 存储 m， 其 他 整数 以 到 最 小 值 m 的 差 值 的 二 进 制 
形式 进行 存储 ， 每 个 整数 所 占 的 位 数 为 5=|log,(M -m+D|; 
Patched frame of referencel17] 编 码 (PFOR) 是 为 了 解决 FOR 编码 


Run-Length 


压缩 。 实 验 表明 改进 优化 后 的 算法 大 大 提高 了 倒 排 索引 的 压缩 


1 ”相关 算法 介绍 
1.1 CSN 编码 
对 于 正 整 数 序列 坟 , 厂 ,加 ， ,六 ， 可 以 用 一 个 哥 德 尔 数 P 唯 
表示 ， 哥 德尔 数 是 基于 质数 因 式 分 解 的 编码 系统 ， 其 公式 如 
下 : 
enc(XyX Xs ,Nb)=2" 32 DA (1) 
其 中 bp, 是 连续 递增 的 质数 。 ne 德尔 数 编码 会 随 


着 整数 序列 值 和 长 度 的 增加 而 指数 增长 ， 不 适用 于 长 整数 序列 
压缩 。 基 于 哥 德 尔 数 的 思想 引出 CSN-1 数 20 编 码 的 定义 : 
定义 1 对 于 一 个 长 度 为 上， 存在 最 小 元 素 为 1 的 整数 序 


列 X,B XX 了 取 T=max(x,X ,NX ,X)+l, I 递 推 式 (2) 可 
得 CSN 数 编 码 。 
ao=0 
a =T:a, +X,l<Sk<n (2) 
CSN =a, 


这 样 , 就 可 以 将 一 个 整数 序列 压缩 为 一 个 CSN 数 编码 。 但 
在 CSN-1 中 ， 对 于 志和 0 或 者 最 小 元 素 不 为 1 时 ， 此 编码 方式 
将 不 再 适用 ,因此 CSN-2 在 CSN-1 的 基础 上 进行 了 改进 提升 ， 
CSN-2 数 P9 定 义 如 下 : 


定义 2 ”对 于 一 个 长 度 为 n 的 整数 序列 2, 六， 为， 取 
m=min(X,%, NX ,xX), T=max(xn,%,Nh ,X,)—-m+2,， 由 递 
式 (3) 可 得 CSN 数 编码 。 
ao =0 
4 =T :a +(X—(m-1)),l<k<n (3) 
CSN=a, 


这 样 ， 就 提升 了 CSN 编码 的 适应 度 。 
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对 于 CSN 编码 的 解码 ， 实 际 上 是 CSN 编码 的 逆 
E 式 (4) 如 下 : 


a =CSN 


一 = ren(C) +(m—1),k>1 (4) 


a -| 军 | >0 


其 中 ，rem(*) 为 取 余 运算 ，|[*| 为 取 整 〈 取 商 ) 运算 。 当 w% =0 
时 ， 递 推 结束 ， 将 序列 x 倒序 即 可 还 原 得 到 原 编码 序列 。 


1.2 自 适 应 分 段 ASCS 算法 
要 解压 一 个 CSN 编码 需要 两 个 参数 , 即 7 和 mm， 因此 压缩 
一 个 长 度 为 n 的 整数 序列 时 需要 存储 CSN、7T 和 m 三 个 参数 ， 


对 于 CSN 数 编码 的 通用 式 (5) 计 算 如 下 : 
CSN=a, 
= 了 .0 +(%,—(m—)) 
=7T.Ta ;+(xX,1—(m-—)))) 
+(z 一 (0 一 TD) 
=T?.a, 十 了. +% 
—(T+D(m-—}1) 


=7T° .Ta, s+(x,,—(m-1))) 
1+xX,—(T+D)(m-l) 
HT .x ,+T.x 


n-l 


+T -xX 


3 
= 了 “U3 


—-(T*+T+D(m-1) 


+ 


(5) 


=T" .a +T" .N+T" .+ 
+T-x +X +(T" +T" ?+ 
+T +D(m-1) 
=T"™ .n+T" ?+ +T.xX,) 
+X +(T HT HT +T+D(m-)l) 
=T .n+m-D)+T" (x +m-—l) 
+ 十 了 (0 +m—l)+X,+ 
nl 


= T(x ;+m-l) 


i=0 


m—l 


因此 存储 个 序列 整数 需要 区 


空间 为 


S(X,X,X3, ,NX,) 


=log, CSN +20 
ed (0 
=log; > T':(%, ;+m-1)+20 


其 中 o 为 存储 一 个 整数 所 占用 的 空 

从 式 (6) 可 以 看 出 , 影响 一 个 整数 序列 所 占 的 空间 大 小 的 因 
素 除 了 与 序列 本 身 相 关 的 取 值 和 长 度 外 ， 还 与 序列 值 的 分 布 和 
最 大 最 小 值 有 关 ， 参 数 了 与 空间 5 构成 寡 函 数 关系 ， 而 参数 mm 
与 空间 5 构成 线性 函数 关系 。 一 个 取 值 较为 集中 的 序列 可 以 得 
到 较 好 的 压缩 效果 。 

当 了 值 过 大 时 ， 会 使 得 序列 的 压缩 效果 不 理想 。 自 适应 分 
段 ASCSP9 算 法 通过 对 长 序列 进行 分 段 压 缩 ， 使 每 段 的 了 值 和 


可 


缩 ， 最 终 使 得 长 序列 的 了 平均 期 望 值 达 到 最 小 ， 
的 压缩 效果 。 
适应 分 段 ASCS 算法 描述 如 下 : 
a) 初 始 化 分 段 数 b=1, 最 优 分 段 数 p=1《〈 即 不 分 段 情况 下 )， 
计算 了 值 ; 
b) 计 算 各 分 段 序列 的 了 值 ， 并 计算 长 序列 的 平均 了 值 为 由 
若 5<n 一 1 则 继续 运算 ， 否 则 运算 结束 ; 
0o) 若 1<T,， 则 T=t，p=b; 
dj) 增 加 一 个 分 段 ， 即 b=b+1， 回 到 Step2 继续 迭代 运算 。 
通过 上 述 算法 步骤 后 ， 可 以 求 得 使 长 序列 平均 了 值 最 小 的 
分 段 数 ， 进 而 得 到 较 好 的 压缩 效果 ， 分 段 压缩 后 所 占 的 空间 为 
各 段 所 占 空间 之 和 , 即 
S(X,X,X3, ,Xi) 
-Von, Tn ‘Kinitm—l)+20p 0 


其 中 :p 为 分 段 数 ，7 为 第 j 分 段 参 数 了 的 i 次 宫 , 为 第 j 分 段 
所 包括 的 整数 个 数 ，Xj.-i 为 第 j 分 段 第 (nj 一 站 个 元 素 的 值 , 7 
为 第 7 个 分 段 的 参数 m 最 小 值 )。 


2 ASCS 算法 的 优化 与 改进 


虽然 分 段 压 缩 ASCS 算法 可 以 减 小 各 小 序列 了 值 和 序列 长 
度 ， 但 是 却 有 可 能 增加 各 个 分 段 的 最 小 值 m， 使 得 长 整数 序列 
压缩 效果 不 甚 理想。 从 式 (7) 可 以 看 出 ， 通 过 减 小 各 分 段 的 参数 
T、m 以 及 序列 值 x 可 以 有 效 的 改善 ASCS 算法 的 压缩 率 。 本 
文 结合 倒 排 索引 的 特点 对 分 段 压 缩 ASCS 算法 进行 如 下 改进 : 
2.1 对 序列 重 排序 并 差分 编码 
在 倒 排 索 引 中 ，DocID 通常 是 按 顺 序 递 增 排列 且 不 重复 地 
出 现在 倒 排 列表 中 。 因 此 结合 倒 排 列表 的 特点 ， 首 先 对 待 压 缩 
序列 按 递增 顺序 进行 重新 排列 ， 然 后 将 序列 中 的 后 项 与 前 项 作 
差 进 行 初次 编码 ,通过 以 上 两 步 操 作 可 以 有 效 的 减 小 序列 的 值 ， 
在 同样 的 分 段 方式 下 可 以 减 小 各 分 段 的 参数 m 和 序列 值 二 ， 显 
然 ， 相 比 于 原 序列 ， 新 序列 的 编码 效果 会 更 好 。 例 如 ， 对 于 序 
列 X=(2,4,5,8,12,13,20,22,253) ， 差分 编码 后 变 为 
X =(2,2,1,3,4,1,7,2,3) ， 可 以 看 出 差分 编码 后 序列 X 相 比 于 
X 有 明显 的 减 小 ， 若 对 原 序列 进行 如 下 分 段 <3,6,.9> ， 即 
X =(2,4.5|8,12,13|20,22,25) ， 在 同样 分 段 方式 下 差分 编码 为 
X =(2,2,1|3,4,1|7,23) ， 此 时 ， 对 于 原 序 列 X 有 
(m=2,T=5),(m, =87D =7),(0a =20,73 =7) ,而 对 差分 序列 X 
有 Gn=4T =3),(w =17 =4,00m =27 =6) ,比较 新 旧 序列 可 
以 看 出 ， 新 序列 不 仅 显 著 的 减 小 的 序列 的 值 ， 而 且 在 同 分 段 方 
式 下 ， 各 段 的 参数 m,， 7 均 有 所 改善 ， 因 此 本 改进 显得 十 分 必 
要 。 
2.2 ”人 工蜂 群 算法 优化 序列 分 段 方 式 
在 分 段 压缩 ASCS 算法 中 ， 对 于 确定 的 分 段 数 ，ASCS 算 
会 采用 均匀 的 分 段 方式 对 长 序列 进行 切 分 ， 但 均匀 分 段 并 不 


从 而 实现 更 自 


Tm 


潍 


序列 长 度 相 对 于 长 序列 来 说 都 有 所 减 小 ， 实 现 了 各 段 更 好 的 压 


一 定 是 最 优 的 分 段 方 式 。 本 文采 用 群 智能 优化 算法 人 工蜂 群 
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P23(ABC) 算 法 优化 ASCS 算法 在 确定 分 段 数 情况 下 的 分 段 方式 ， 
以 得 到 最 优 分 段 方 式 。 人 工蜂 群 算法 优化 的 过 程 如 下 : 

a) 初 始 化 NP 个 蜜源 六， 关 =(Xi, 关 ,,XX;,， ,Xnp) ， 每 个 蜜 
源 对 应 一 个 可 行 解 ( 即 一 种 分 段 方式 , 表示 为 分 段 坐 标 )， 其 中 
每 个 蜜源 都 是 4 维 向 量 X; = (Xi,Xis,X3， ,Xia)( 即 蜜源 编码 )， 
这 里 的 d= p 一 1( 即 分 段 数 减 1), 蜜源 初始 化 公式 如 式 (8) 所 示 。 

| =randInt[l,n—1| 
X,. =randInt[l,n—1| 


(8) 


其 中 : j,ke(ll,2,，,d)， jzk,，ie(,NP), HX;*Xi,n 为 
序列 长 度 ， 即 蜜源 的 每 维 均 为 1 到 (nD 之 间 的 随机 整数 且 互 
不 相等 。 

b) 引 领 蜂 计算 对 应 蜜源 的 适应 度 值 ， 
度 计 算 公 式 如 下 : 


搜索 新 蜜源 。 适 应 


fit, 二 从 和 


1 


其 中 : fii; 为 第 i 个 蜜源 的 适应 度 值 ，7 为 第 i 个 蜜源 对 应 分 段 

方式 下 的 平均 7 了 值 ，T 为 第 i 个 蜜源 对 应 分 段 方式 下 第 1 段 的 

了 值 ，2 为 当前 分 段 数 。 引 领 蜂 搜索 新 蜜源 公式 如 下 : 
V 息 X; 十 randInt[~a,a] 


(10) 
其 中 : ie (1,NP) , j 为 (1,4) 间 的 随机 整数 ，a 为 范围 控制 参数 ， 
即 引 领 蜂 在 其 附近 范围 内 搜索 新 蜜源 ， 如 果 找 到 比 当前 蜜源 更 
为 优质 的 蜜源 (适应 度 值 更 高 )， 则 当前 蜜源 位 置 移 至 新 蜜源 处 
否则 蜜源 不 移动 ， 蜜 源 未 更 新 计数 加 1。 

co) 跟随 蜂 采 用 轮 盘 赌 的 方式 以 式 (11) 概 率 性 地 选择 蜜源 进 
行 采 蜜 ,更 新 蜜源 , 更 新 方式 与 引领 蜂 同 样 为 式 (10), 同样 地 ， 
若 蜜 源 未 更 新 ， 则 未 更 新 计算 加 1。 跟 随 蜂 选择 蜜源 概率 计算 
公式 如 下 : 


而 4 


qd) 当 某 一 解 (蜜源 ) 的 未 更 新 次 数 大 于 或 等 于 闵 值 参数 limit 
时 ， 引 领 峰 变 为 侦 测 蜂 跳出 局 部 最 优 解 ， 根 据 式 (8) 重 新 获得 一 
个 新 蜜源 ， 对 应 的 蜜源 未 更 新 计数 为 0。 

e) 保 存 当前 全 局 最 优 解 信息 ， 并 判断 算法 终止 条 件 ， 寿 迭 
代 次 数 达 到 预 设 参数 maxCycle, 则 终止 算法 并 输出 最 佳 分 段 方 
式 结果 ， 和 否则 回 到 b) 不 断 循环 迭代 更 新 蜜源 ， 直 到 算法 达到 终 
止 条 件 为 止 。 
2.3 对 ASCS 算法 的 改进 

ASCS 算法 着 力 于 找到 一 个 使 得 待 压缩 长 序列 的 平均 了 值 
最 小 的 分 段 方式 进行 分 段 压 缩 ， 根 据 式 (6) 可 以 看 出 虽然 参数 了 
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将 长 序列 的 平均 了 值 作为 目标 函数 ， 而 是 将 影响 序列 占用 空间 
的 所 有 因素 考虑 进去 ， 以 式 (7) 作 为 目标 函数 。 这 样 ， 蜜 源 的 适 
应 度 计算 式 (9) 更 改 为 式 (12)。 


1 


fit, = 本 
p -= 
> log， > 7 ‘xtm, -D+20p 


在 每 次 ASCS 算法 人 迄 代 中 ， 分 段 数 p 为 定 值 ， 各 个 蜜源 所 
对 应 的 各 个 分 段 的 参数 T7、m 以 及 分 段 序列 值 之 均 为 定 值 ， 因 
此 可 以 根据 式 (12) 计 算出 各 蜜源 的 适应 度 ， 最 终 实现 对 长 整数 
序列 的 高 效 压缩 。 
2.4 改进 优化 的 ASCS 算法 程序 流程 图 
通过 上 述 改进 优化 的 ASCS 分 段 压 缩 算 法 伪 代 码 描述 如 下 : 
输入 : 待 压缩 整数 序列 
输出 : CSN 序列 ， 以 及 相关 参数 T、m 
流程 图 如 图 1 所 示 。 


(12) 


v v 
从 小 到 大 重 排 待 压缩 序列 侦查 峰 跳出 局 部 最 优 解 ， 随 机 
并 差分 预 处 理 获得 一 个 蜜源 
EE 
v 
初始 化 分 段 数 为 1, 并 计算 0 
未 分 段 情况 下 序列 占用 空间 -一 一 释 代 次 数 >maxCycle5 一 一 
了 Ss 
QQ 
vv 
分 段 数 加 1 
vy 
初始 化 蜜源 
六 一 一 二 
v n 
引领 峰 计 算 密 源 适应 度 值 y 
人 记录 分 段 数 与 分 段 方式 。 | 
n 
村 
跟随 峰 依 概率 选择 蜜源 采 密 SS 
广 一 一 分 段 数 < 序列 长 度 ? 一 一 
a n 一 
-一 相 源 未 更 新 次 数 >1imnit7 一 8 
re 分 段 压 缩 各 序列 并 记录 参数 
小 
(人 结束 
图 1 改进 优化 后 的 程序 流程 图 


3 ”实验 与 结果 分 析 


本 实验 综合 考虑 整数 序列 以 整数 形式 存储 (Int)、 整 数 转 字 
符 串 形式 存储 (String)、CSN 编码 存储 、 差 分 处 理 后 的 CSN 编 
码 存 储 (dCSN)、CSCA 编码 存储 、 差 分 CSCA 编码 存储 (dCSCA)、 
人 工蜂 群 算法 优化 后 的 CSCA 编码 存储 (CSCAABC)、 差分 后 的 
CSCAABC 编码 存储 (dCSCAABC) 以 及 在 综合 三 者 (差分 、 人 
工蜂 群 算法 优化 和 多 因素 综合 考虑 改进 ) 优化 改进 后 存储 
(dCSCAABCP) 在 不 同 规模 下 的 序列 压缩 结果 进行 比较 。 序 列 的 


对 序列 的 压缩 性 能 有 着 最 直接 的 影响 ， 但 ASCS 算法 并 没有 从 
全 局 角度 去 考虑 问题 ， 忽 略 掉 了 同样 对 压缩 性 能 有 影响 的 参数 
m，x，p， 因 此 ， 对 ASCS 算法 的 压缩 率 还 有 提高 的 空间 。 
结合 本 文 提出 的 用 人 工蜂 群 算法 优化 ASCS 分 段 方 式 ， 本 
文 提出 一 种 改进 方法 ， 即 在 对 待 压 缩 长 序列 进行 分 段 时 ， 不 再 


压缩 率 定义 如 下 : 


Ne 
rate =— Ex100% 


S 为 序列 占用 空间 位 数 。 
本 实验 选择 长 度 不 一 的 9 个 整数 序列 作为 实验 数据 ， 其 中 


(13) 
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蜜源 寻 优 范 转 


空 制 参数 a 设置 为 2， 


蜜源 未 更 新 参数 limit 设置 


为 5， 算 法 迭代 终止 参数 maxCycle 设置 为 230， 验 证 比较 各 个 


序列 在 不 同 编码 上 的 压缩 率 。 数 据 详 细 描述 如 下 表 2 所 示 ， 各 
个 序列 在 不 同 编码 上 的 的 占用 空间 数 和 相对 于 整数 存储 的 压缩 
率 分 别 如 表 3 和 图 1 所 示 。 
表 2 实验 数据 描述 
序列 ”长 度 描述 
sl 10 0 到 20 之 间 的 不 重复 随机 整数 
s2 20 0 到 50 之 间 的 不 重复 随机 整数 
s3 50 0 到 100 之 间 的 不 重复 随机 整数 
s4 100 0 到 300 之 间 的 不 重复 随机 整数 
s5 200 0 到 500 之 间 的 不 重复 随机 整数 
s6 500 ”0 到 1000 之 间 的 不 重复 随机 整数 
s7 1000 ”0 到 2000 之 间 的 不 重复 随机 整数 
s8 5000 “0 到 10000 之 间 的 不 重复 随机 整数 
s9 10000 0 到 20000 之 间 的 不 重复 随机 整数 
表 3 序列 在 不 同 编码 上 的 空间 (bi 占用 情况 
sl | s2 | s3 sd s5 sb S7 s8 s9 
String 7 了 04 1792 4672 11744 24128 62080 141920 783104 1741920 
Int 320 640 1600 3200 6400 16000 32000 160000 320000 
CSN 104195 774 1101 2487 5038 17418 66480 142912 
dcsN 94 182 了 740 /958 i2273 ,4123 '16563 ,52064 104928 
CSCa 96 188 '750 |976 ,2362 4338 |16378 ,57984 131968 
acSCa 91 |176 |700 |922 |2173 |4019 |15418 |49936 |115968 
CSCAABC ‘86 172 716 947 2184 3581 15818 51504 119584 
dCSCAABC ‘76 161 701 802 1971 3365 15603 48448 116864 
dCSCAABCP 69 143 646 ‘712 1765 ,3096 15139 40832 98368 


从 表 3 可 以 看 出 ， 同 一 整数 序列 在 不 同 的 编码 方式 上 占用 
间 差 异 较 大 。 在 未 压缩 


的 存储 空 


青 况 下 ， 以 字符 串 形式 存储 和 


pe 


序列 较 以 整数 形式 存储 的 序列 


实际 中 大 多 数 未 压缩 序列 以 整数 


四 CSN 
加 dCSCA 
图 dCSCAABCP 
75 ] 
有 70 
65 ] 


ERI PFI EI IRII TTIII PIII TIA | 


S3 


的 存储 空间 大 得 多 ， 因 此 在 


be 


dCSN 
BCSCAABC 


EB 式 存储 。 


日 CSCA 
加 dCSCAABC 


SS SO 


sl S2 S4 S7 s8 s9 
数据 序列 s 
图 2 序列 在 不 同 编码 上 的 压缩 率 对 比 
从 图 2 来 看 ， 不 同 的 序列 在 同一 编码 上 表现 出 不 同 的 压缩 


率 ， 这 与 序列 自身 相关 ; 
进 的 dCSN 和 CSCA 编码 较 CSN 编 


而 从 同 


一 序列 来 看 ， 作 为 CSN 编码 改 


码 均 有 一 定 的 压缩 率 提升 ; 


同样 ， 作 为 CSCA 编码 改进 的 dCSCA 和 CSCAABC 编码 较 


CSCA 编码 也 有 压缩 率 的 提升 ; 


最 后 综合 改进 的 dCSCAABCP 


GhinaXiy 合 


白 福 均 ， 


作 期 于 


寺 : 二 种 全 排 家 引 网 


编码 在 不 同 的 序列 上 均 具有 最 好 的 压缩 率 。 


4 ”结束 语 


本 文通 过 排序 差分 初次 编码 对 待 压缩 数据 预 处 理 ， 以 降低 
序列 值 以 及 提升 序列 值 的 聚集 度 ; 通过 人 工蜂 群 算法 (ABOC) 优 
化 CSCA 压缩 算法 的 分 段 方式 进一步 提升 序列 压缩 率 ; 通过 将 
式 (6) 作 为 CSCA 分 段 的 依据 ， 从 整体 上 压缩 序列 。 实 验 对 比 发 
现 ， 改 进 后 的 dCSCAP 算法 对 整数 序列 具有 较 好 的 压缩 率 。 虽 
然 本 改进 算法 具有 较 好 的 压缩 率 , 但 由 于 dCSCAP 算法 会 在 编 
码 过 程 中 不 断 迭 代 寻 优 ， 因 此 在 一 些 需 要 实时 索引 和 检索 的 场 
合 不 太 适 用 ， 但 对 于 一 些 定期 更 新 的 索引 检索 引擎 来 说 ， 该 算 
法 具有 较 高 的 适用 性 。 此 外 ， 对 于 载 海量 数量 情况 下 ， 可 以 考 
虑 采用 分 布 式 计 算 框架 多 机 并 行 编码 来 提高 编码 速度 ， 以 增强 
算法 的 适用 性 。 在 解码 方面 ， 改 进 后 的 dCSCAP 算法 较 CSCA 
算法 来 说 仅仅 增加 了 差分 步骤 ， 因 此 在 解码 时 只 需 较 CSCA 算 
法 多 做 一 次 减法 运算 即 可 ， 该 步骤 对 算法 的 解码 性 能 影响 微 乎 
其 微 。 综 上 所 述 ， 本 文 提 出 的 改进 算法 具有 一 定 的 现实 意义 。 
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